[Day09]Sarsa & Q Learning (1)

第 12 屆 iThome 鐵人賽

DAY 9

AI & Data

從根本學習Reinforcement Learning系列第 9 篇

12th鐵人賽

hankla

2020-09-09 21:16:23

3431 瀏覽

分享至

前言

今天會以昨天講的TD Learning，來介紹兩種TD Learning中最有名的方法，Sarsa與Q Learning。

Sarsa

昨天TD Learning中的Value Function更新方式為

而為了要進行policy improvement，跟Monte Carlo Method一樣，通常會用 $q(s\ ,\ a)$ 來取代 $V(S)$ 。

現在公式中的 $V(S_{t+1})$ 要換成 $q(S_{t+1}\ ,\ A)$ 的話，我們的 $A$ 應該要選擇甚麼才對呢？

一種方法是以當前policy的action來決定，我們以這個policy得到的Value值來做更新。更新完後再improvement我們的policy，可以證明最後能夠得到真正的optimal policy。也可以用GPI的圖來看

每次都往目前policy選擇的行為來更新，而policy又為當前Value的 $\epsilon$ -greedy policy，所以最後會往optimal policy的方向移動。

根據上述我們用 $q(S^{'}\ ,\ A^{'})$ 來當作 $V(S^{'})$ 的值，其中 $A^{'}$ 為下個時間點中，policy所做的action。

從演算法比較好理解：

Expected sarsa

上述方法收斂的速度沒有很快，原因是因為我的的policy為 $\epsilon$ -greedy policy，如果我們在 $S^{'}$ 選擇到隨機action的話，更新後的 $q(S\ ,\ A)$ 有可能會偏離真實值。

好的估測 $q(S^{'}\ A^{'})$ 的方式是用期望值來計算： $\sum\limits_{a}\pi(a\ \mid\ S_{t+1})q(S_{t+1}\ ,\ a)$ ，可以保證會以更正確的方向來更新。
所以我們可以將上面的算法改為：

Sarsa與Expected Sarsa的更新類似於stochastic-gradient與gradient的關係

圖片取自https://www.researchgate.net/figure/Stochastic-gradient-descent-compared-with-gradient-descent_fig3_328106221